import pandas as pd

# 读取CSV文件
df = pd.read_csv('data/2018-2024年农户数据汇总.csv')

# 保留指定的列
df = df[['纬度', '经度','年份','县(市、区、旗)', '行政村', '人均纯收入', ]]

# 计算 bootstrap_number (年份 - 2021)
df['年份'] = df['年份'].apply(lambda x: x - 2021)

# 重命名纬度和经度列为 x1 和 x2
df = df.rename(columns={'年份':'bootstrap_number','纬度': 'x1', '经度': 'x2'})
# 增加一个序号列
df['original_index'] = range(1, len(df) + 1)
# 计算x1和x2的平均值
mean_x1 = df['x1'].mean()
mean_x2 = df['x2'].mean()

# 计算每一行的偏移量
df['x1'] = df['x1'] - mean_x1
df['x2'] = df['x2'] - mean_x2


# 打印结果查看
print(df)

# 将处理后的数据保存为新的CSV文件
df.to_csv('processed_data.csv', index=False)
